232. GCE Observability 安裝agent失敗

WHY

利用terraform裝好GCE後,
要來裝一下監控,才能把資料丟去grafana裏面統一管。
結果一直卡在pending。

Solution

232-fig.1.png

以爲只是單純安裝失敗,先強制關閉更新後再看看。

# 關閉安裝
sudo bash add-monitoring-agent-repo.sh --remove-repo

重新啓用後還會卡在pending,
還是只能查 log ,到 /var/log/google-cloud-ops-agent 底下,
查看health-checks.log 。發現原因出現permission denied

後來才發現原因,
我用terraform建立GCE時,沒有設定的service account。
導致他要安裝時會卡在那邊。

所以,只要把機器停機,
再到 API and identity management 選擇 Service account即可。
232-fig.2.png

ref. 排查 Ops Agent 安裝和啟動問題